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基于 事件 相关 电位 (ERPs) 和 机 器 学 习 的 
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fi 要 考试 焦虑 对 个 体 的 身心 具有 严重 危害 。 传 统 诊断 考试 焦虑 的 方法 容易 受到 个 体 主 观 态 度 的 影响 ， 从 而 影 
响 对 个 体 考试 焦虑 的 发 现 与 及 早 干预 。 为 了 克服 传统 主观 问卷 对 考试 焦虑 群体 诊断 的 不 足 ， 本 研究 提出 脑 电 神经 
数据 结合 机 器 学 习 的 客观 综合 诊断 方法 评估 个 体 的 考试 焦虑 水 平 。 人 研究 采用 情绪 Stroop 范式 , 结合 脑 电 技术 测量 
个 体 对 考试 焦虑 者 的 注意 抑制 功能 ， 机 器 学 习 基 于 此 前 提 , 提取 P1, P2, N2, P3 和 LPP 五 种 事件 相关 电位 (ERP) 成 分 ， 
以 卷 积 神经 网 络 (CNN) 为 主 采用 7 种 常见 的 机 器 学 习 算 法 对 个 体 考 试 焦虑 程度 进行 进一步 的 诊断 。 结 果 表 明 CNN 


对 考试 焦虑 诊断 的 准确 率 达 86.5%, Fl-score X 0.911, 4 
行 深度 学 习 得 出 的 诊断 模型 能 够 有 效 地 对 个 体 的 考试 焦虑 程度 进行 诊断 。 


关键 词 ”机 器 学 习 ; 考试 焦虑 ; 情绪 Stroop; 
分 类 号 R395 


前 言 


/车 高 于 其 他 6 种 常见 算法 。 因 此 采用 CNN 对 脑 电 信号 进 


ERPs 


考试 焦虑 者 还 会 表现 出 一 系列 生理 的 、 行 为 的 反应 ， 
如 出 现 与 植物 性 神经 活动 失调 相关 的 身体 反应 症 


在 中 国 , 考试 是 评价 个 人 能 力 的 一 种 主要 手 。”” 状 (如 心跳 加 快 、 出 冷汗 、 呼 吸 急促 、 闸 拌 等 )， 并 
段 。 作 为 一 种 评价 性 事件 , 个 体 对 考试 的 认 知 会 影 ” 且 由 此 影响 个 体 的 生理 健康 ,影响 内 分 泌 ， 降 低 免 
响 个 体 在 面 对 此 类 事件 时 的 焦虑 程度 (Schutz， 疫 功 能 , 增加 感染 性 疾病 、 胃 部 不 适 及 睡眠 障碍 等 
Davis, & Schwanenflugel, 2002). 当 个 体 非常 重视 考 IAB (ILE, FAT, 2014)。 此 外 ， 高度 的 考试 焦 
试 结果 并 因此 将 考试 视 为 一 种 威胁 , 会 出 现 焦虑 的 。” 虑 往往 与 抑郁 情绪 相 联 系 ( 陈 豁 等 ,2011)， 而 抑郁 
症状 (Lotz & Sparfeldt, 2017)。 高 度 考试 焦虑 在 各 级 TEA, Rew BA, HERRA A 
学 生 中 的 比例 都 超过 20% (BRA, Xp, JAR, RRRA, WA, ABH, 2008). KE, ote 
2011)， 在 一 些 地 区 的 初中 生 中 这 一 比例 甚至 高 达 试 焦虑 进行 早期 的 准确 诊断 十 分 必要 。 

35% ( 陈 社 妍 , 2002)。 


考试 焦虑 对 个 体 的 身心 健康 具有 严重 


目前 ， 国 内 外 对 考试 焦虑 的 研究 中 所 采用 的 诊 
危害 。 首 。”” 断 技术 主要 采用 主观 测评 具体 分 为 问卷 调查 法 和 


先 ,在 面临 重要 考试 的 时 候 , 考试 焦虑 者 会 体会 到 WR., Rm, 想 要 仅 通过 主观 测评 技术 达到 对 考 
一 种 强烈 的 担忧 和 情绪 反应 ， 时 时 刻 刻 在 担心 考试 ” 试 焦虑 进行 早期 识别 并 准确 诊断 其 程度 并 不 容易 。 
的 失败 , 他 人 的 评价 以 及 考试 结果 的 排名 (Zeidner ”具体 限制 在 于 : (1) 真 实 性 : 当 被 试 由 于 某 些 原因 想 
& Matthews, 2005)。 不 仅 是 心慌 、 紧 张 等 情绪 体验 ， ”要 隐藏 自己 真实 的 情况 时 , 采用 访谈 或 者 问卷 等 主 
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观测 评 的 方法 可 能 会 降低 评估 的 准确 性 ( 风 笑 天 ， 
2003)， 如 学 生 不 希望 自己 被 老师 或 者 家 长 知道 自 
己 的 考试 焦虑 ， 则 会 选择 更 为 积极 的 主观 表述 ， 从 
影响 评估 结果 。(2) 诱 导 性 : 主观 评估 的 过 程 可 能 

激发 个 体 的 负 性 情绪 ， 如 在 填 答 问卷 中 看 到 “考试 ”， 
“ 挂 科 ”等 字面 负 性 信息 ， 或 者 访谈 中 提 及 有 关 考 试 
的 负 性 经 历 ， 个体 都 有 可 能 会 诱发 出 相关 的 负 性 情 
绪 (Diegomantecon，2015)， 从 而 可 能 会 加 重 或 者 影 
响 个 体 作答 时 的 情绪 状态 ， 从 而 影响 评估 结果 。 

为 了 降低 这 些 限制 , 结合 客观 技术 的 综合 诊断 
必 不 可 少 。 而 精确 敏感 的 客观 技术 指标 需要 以 考试 
焦虑 的 病理 模式 为 基础 。 考 试 焦虑 者 并 不 总 是 处 在 
一 种 不 适应 的 状态 中 , 考试 焦虑 证 状 的 出 现 具有 情 
境 性 和 特异 性 (Lowe et al., 2008)， 当 没有 或 者 面 对 
非 重 要 考试 相关 事件 时 ， 考 试 焦虑 者 并 没有 明显 的 
心理 生理 不 适 症状 , 只 会 表现 出 一 定 的 焦虑 症状 ， 
但 当 重 要 考试 相关 事件 出 现时 ,考试 焦虑 者 的 焦虑 
水 平 会 急速 上 升 , 伴随 着 明显 的 心理 生理 反应 ,并 
进一步 影响 个 体 的 认 知 水 平 (Lotz & Sparfeldt, 2017; 
Mok & Chan, 2016)。 这 表明 ， 考试 焦虑 的 症状 是 随 
着 考试 焦虑 者 对 考试 事件 的 认 知 而 变化 的 ， 即 考 
试 焦虑 者 越 将 考试 事件 视 作 是 一 种 威胁 ( 即 对 考 
试 的 认 知 越 不 合理 )， 越 能 够 激发 他 们 的 不 适 症状 
(Mochcovitch, da Rocha Freire, Garcia, & Nardi, 
2014)。 因 此， 考试 焦虑 者 的 认 知 模式 是 对 考试 焦虑 
进行 诊断 的 重要 基础 。 

脑 电 技术 (Electroencephalography,，EEG) 可 以 
有 效 反 映 个 体 对 特定 刺激 的 情绪 状态 变化 、 注 意 及 
背后 的 认 知 模式 (Edwards, Burt, & Lipp, 2010)。 脑 
电 是 人 脑 活动 时 产生 的 自发 电位 ,具有 较 高 的 时 间 
分 辨 率 和 敏感 性 (Luck, Woodman, & Vogel, 2000), 
其 中 , 事件 相关 电位 (event-related potentials, ERPs) 
则 是 大 脑 对 特定 类 型 刺激 的 电位 反应 ,可 以 反映 个 
体 对 特定 事件 的 认 知 模式 。 考 试 焦虑 者 的 重要 认 知 
特点 为 将 考试 视 为 一 种 威胁 ， 因 此 考试 相关 威胁 信 
息 出 现时 ， 高 考试 焦虑 者 更 容易 将 注意 资源 放 在 考 
试 相关 威胁 信息 上 ( 即 注意 偏向 )， 并 持续 加 工 这 些 
信息 ， 对 当前 需要 进行 的 任务 产生 干扰 (Kalanthroff, 
Henik, Derakshan, & Usher, 2016; Putwain, Langdale, 
Woods, & Nicholson, 2011)。 具 体 表现 为 当 考 试 相关 
(威胁 ) 信 息 出 现时 , 高 考试 焦虑 者 在 ERP 的 重要 成 
分 上 有 显著 的 波幅 变化 (增加 或 降低 )。 

情绪 Stroop 范式 能 够 很 好 地 反映 高 考试 焦虑 
个 体 对 考试 威胁 信息 的 认 知 特点 (van Bockstaele et 


al., 2014; Verhaak, Smeenk, van Minnen, & Kraaimaat, 
2004) ,在 情绪 Stroop 任务 中 , 每 次 给 被 试 呈现 一 个 
词语 刺激 ,同时 包含 目标 维度 (颜色 ) 和 干扰 维度 ( 词 
X), 要 求 被 试 只 专注 目标 维度 ( 即 判断 词 的 颜色 ) 而 
忽略 干扰 维度 ( 即 词义 ), 词义 分 为 考试 相关 威胁 词 
(如 : 挂 科 ) 和 中 性 词 (如 : 街道 ), 任务 通过 比较 威胁 
词 和 中 性 词 条 件 下 的 ERP 成 分 变化 推断 个 体 对 威 
胁 信息 的 注意 特点 (Dennis & Chen, 2009; Gu et al., 
2011)。 由 于 高 考试 焦虑 者 对 考试 相关 威胁 信息 存在 
注意 偏向 ， 因 此 ， 当 威胁 词 出 现时 ， 相 比 于 低 考 试 
焦虑 者 , 高 考试 焦虑 者 会 在 一 些 有 重要 意义 的 ERP 
成 分 上 表现 出 波幅 的 显著 变化 ,可 能 表现 为 相对 早 
期 的 、 感 觉 的 , 与 自动 化 加 工 关 的 成 分 (如 P1，P2， 
N2 等 成 分 ) (Kanske & Kotz, 2012; Wabnitz, Martens, 
& Neuner, 2016), 及 相对 晚期 的 、 认 知 的 , 与 自主 
加 工 和 和 情绪 活动 相关 的 成 分 (如 P3, LPP 等 成 分 ; 
Albert, Lopez-Martin, & Carretié, 2010; Raz, Dan, 
Arad, & Zysberg, 2013) 的 波幅 显著 增强 。 

采用 ERPs 技术 对 考试 焦虑 程度 评估 可 以 有 效 
降低 问卷 法 的 限制 : (1) 真 实 性 : ERPs 中 的 特定 成 
分 反映 的 是 个 体 对 特定 刺激 的 自动 化 反应 , 不 易于 
自主 控制 ， 具 有 高 度 的 客观 性 (Righi，Mecacci， 久 
Viggiano, 2009)。(2) 诱 导 性 : ERP 任务 中 呈现 的 刺 
激 材料 往往 时 间 较 短 , 个 体 没 有 充分 的 时 间 对 其 进 
行 加 工 ， 从 而 对 个 体 (Morel, George, Foucher, 
Chammat, & Dubal, 2014; Tillman & Wiens, 2011) 的 
情绪 和 认 知 影响 较 低 。 然 而 ERPs 技术 也 存在 自身 
的 局 限 性 : (1) 个 体 差异 性 : 不 同 个 体 之 间 的 脑 电 幅 
值 可 能 差异 很 大 ,很 难 找到 有 具有 代表 性 的 有 效 特 征 ， 
使 得 在 使 用 脑 电 对 不 同 群 体 进行 分 类 诊断 的 精确 
HE 5 Zl) 3% le] (Boshra, Ruiter, Reilly, & Connolly, 
2016; 王 艳 娜 ， 孙 丙 宇 , 2017)。(2) 干 扰 性 : 由 于 脑 
电 指 标 十 分 敏感 ， 因 此 很 容易 受到 外 界 干扰 信号 或 
者 内 部 其 他 类 型 认 知 的 干扰 (Cecotti et al., 2011)。 
因此 单独 使 用 ERPs 技术 进行 分 类 诊断 的 准确 率 无 
法 保证 。 

为 了 减少 ERPs 技术 的 限制 对 考试 焦虑 诊断 性 
的 影响 ,增加 诊断 的 稳定 性 与 准确 性 , 我 们 在 脑 电 
技术 的 基础 上 进一步 采用 机 器 学 习 技 术 。 机 顺 学 习 
特别 是 深度 学 习 是 一 种 强力 的 分 类 模型 , 已 经 在 图 
像 识 别 (Krizhevsky, Sutskever, & Hinton, 2012), 自 
然 语言 处 理 (Kumar et al., 2016), 文本 分 类 (Yang et 
al., 2016) 等 任务 中 取得 很 好 的 结果 。 我 们 主要 采用 
卷 积 神经 网 络 (Convolutional neural network, CNN) 
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这 种 深度 学 习 算 法 对 脑 电 类 型 数据 进行 模型 的 建 
立 。 在 适用 性 方面 , CNN 是 一 种 基于 普通 神经 网 络 
的 推广 算法 ,特别 善于 捕捉 数 据 的 局 部 特征 。 脑 电 
数据 虽然 存在 个 体 差 异性 和 干扰 性 的 局 限 , 但 是 也 
存在 相对 稳定 性 , 即 在 头皮 上 相 邻 电极 点 之 间 的 点 
位 变化 具有 很 大 的 相关 性 ,结合 分 析 能 够 提高 准确 
性 。 而 CNN 可 以 组 合 分 析 相 邻 电 极点 之 间 的 脑 电 
数据 ,通过 下 采样 的 方式 来 减 小 数据 矩阵 的 大 小 ， 
有 效 减 少数 据 的 位 移 、 扰 动 和 一 些小 的 变化 对 数据 
稳定 性 和 准确 性 的 影响 , 因此 CNN 对 脑 电 数据 具 
有 高 度 适 用 性 (Lu, Jiang, & Liu, 2017; Seijdel, 
Ramakrishnan, Losch, & Scholte, 2016). 在 具体 操作 
方面 , 为 了 处 理 一 些 复杂 的 任务 ,在 传统 的 分 类 模 
型 中 , 往往 需要 对 数据 进行 很 复杂 的 特征 提取 ， 然 
后 将 得 到 的 特征 放 入 分 类 模型 中 进行 处 理 。 而 CNN 
是 一 种 端 对 端的 算法 ， 即 只 需要 将 经 过 简单 预 处 理 
的 数据 作为 模型 的 输入 , CNN 会 自动 学 习 特征 ， 并 
且 利 用 习 得 的 特征 进行 分 类 。 此 外 , 同 传统 机 器 学 
习 方法 相 比 , CNN 在 这 一 类 有 空间 结构 的 数据 上 表 
现 远 超 传统 机 器 学 习 方 法 (Lee, 2015; Fotin, Haldankar, 
& Periaswamy, 2016), 并 且 已 被 验证 确实 能 够 提取 
出 高 层次 的 有 用 的 信息 (Zeiler & Fergus, 2014; 
Mahendran & Vedaldi, 2015)， 同 时 神经 网 络 的 结构 
能 够 保证 它 可 以 实现 对 任何 一 个 从 输入 向 量 到 输 
出 向 量 的 连续 映射 函数 的 逼近 (Hornik, 1991)。 所 以 
我 们 认为 CNN 能 在 ERPs 数据 上 取得 良好 的 结果 。 

因此 ,本文 主要 关注 考试 焦虑 的 程度 评估 与 诊 
断 问题 , 采用 卷 积 神经 网 络 (CNN) 对 高 、 低 考试 焦 
虑 者 在 情绪 Stroop 中 的 ERP 脑 电 信号 进行 分 类 模 
型 的 建立 ， 并 进一步 使 用 该 模型 对 被 试 的 考试 焦虑 
进行 诊断 ,试图 探究 更 为 客观 、 准 确 的 考试 焦虑 诊 
其 方法。 


2 数据 采集 与 预 处 理 


21 被 试 招募 

本 研究 通过 海报 及 网 络 招募 的 方式 招募 了 82 
名 被 试 。 被 试 (年 龄 为 18~26 岁 ; BAA) AE 
考试 焦虑 量 表 (Sarason，1978) 得 分 以 及 两 位 专家 的 
综合 评估 被 分 至 高 考试 焦虑 组 (TAS 分 数 : 27.85 + 
4.78， 人 数 为 57 人 ,男性 25 A, 年 龄 :21.27 土 1.89 
岁 ) 和 低 考 试 焦虑 组 (TAS 分 数 : 8.65 土 2.76， 人 数 为 
25 A, 男性 12 A, 年 龄 : 21.35 土 2.96 岁 )。 该 实验 
已 经 通过 伦理 委员 会 的 审查 ， 所 有 被 试 在 实验 前 已 
经 签署 知情 同意 书 ， 均 为 自愿 参加 实验 ,在 实验 之 


后 也 获得 相应 的 报酬 (40 元 )。 
2.2 ”考试 焦虑 量 表 (TAS) 

考试 焦虑 量 表 是 由 美国 临床 心理 学 家 Twin G. 
Sarason 于 1978 年 编制 完成 的 (Sarason, 1978)。TAS 
量 表 共 37 题 ,每 个 问题 要 求 作 是 或 否 的 二 择 一 回 
答 ,“ 是 ” 记 1 分 , “和 否 ” 记 0 分 , 通过 计算 总 分 对 考试 
焦虑 程度 进行 评估 ， 总 分 范围 为 0~37， 得 分 越 高 说 
明 考 试 焦虑 的 程度 越 高 ,TAS 得 分 >20 为 高 考试 焦 
IRA, TAS 得 分 <12 为 低 考试 焦虑 者 (Newman, 1996; 
Wang, 2001)。 量 表 的 重 测 信和 度 为 0.61， 同 质 性 系数 
为 0.64。 量 表 的 结构 效 度 采 用 与 考试 焦虑 测验 (TAT) 
的 相关 测 得 , TAS 总 量 表 分 和 TAI 的 担心 (worry) 分 
量 表 的 相关 为 0.48; 和 TAI 的 情绪 性 (emotionality) 分 
量 表 的 相关 为 0.60 (EA BE, 2001)。 
2.3 ”情绪 Stroop 任务 

情绪 Stroop 任务 设计 与 前 人 设计 类 似 (Thomas， 
Johnstone, & Gonsalvez, 2007)， 要 求 被 试 忽略 词义 ， 
只 判断 词 的 颜色 ,在 材料 上 :(1) 词 义 分 为 两 种 条 件 : 
考试 相关 威胁 词 ( 如 “试卷 ”,“ 分 数 ”) 和 中 性 词 ( 如 “人 花 
园 ”， 鞋 子 )。 词 汇 的 选取 是 通过 评定 的 方法 : 请 40 
位 被 试 (不 参加 此 次 实验 ) 根 据 威胁 度 和 相关 度 筛 选 
出 考试 相关 威胁 词 与 中 性 词 各 15 个 , 并 根据 使 用 
频率 进行 匹配 。 评定 结果 为 考试 相关 威胁 词 的 威胁 
度 (1(38) = 30.19, p < 0.001) 与 相关 度 (1(38) = 38.166, 
p < 0.001) 都 显著 高 于 中 性 词 ， 且 两 类 词 在 使 用 频 
率 上 没有 显著 差异 (1(38) = 1.436, p = 0.162)。(2) 词 
色 分 为 两 种 条 件 : 红色 和 蓝 色 。 在 操作 上 , 任务 包 
括 两 部 分 (练习 部 分 : 包含 6 次 实验 试 次 , 但 是 每 
次 呈现 的 都 是 中 性 词 ， 具 体 设 置 与 实验 部 分 ( 见 后 
文 ) 类 似 ， 且 练习 部 分 中 出 现 的 词 都 没有 出 现在 实 
验 部 分 中 。 此 外 ,每 个 试 次 中 在 被 试 进行 反应 之 后 
程序 都 呈现 “正确 ?或 “错误 ”的 反馈 (实验 部 分 不 呈 
现 反馈 ); (2) 实 验 部 分 : 包含 120 次 试 次 (每 个 词汇 
随机 出 现 4 次 , 2 次 为 红色 ,2 次 为 蓝 色 )。 每 个 试 次 
都 以 计算 机 屏幕 中 央 呈 现 注视 点 “+” 开 始 , 该 注视 
点 停留 在 屏幕 上 200 ms, 之 后 屏幕 呈现 空白 并 持 
续 一 定时 间 ( 在 800 至 1200 ms 之 间 随 机 )， 随 后 一 
个 目标 词 将 出 现在 白色 背景 下 。 每 个 试 次 在 以 下 两 
种 情况 下 结束 : (a) 被 试 完成 反应 ( 按 下 按钮 选择 词汇 
的 颜色 ), 或 者 (b) 在 2000 ms 内 未 进行 反应 。 试 次 间 会 
出 现 空白 屏幕 并 持续 一 定时 间 ( 在 1000 至 1200 ms 
之 间 随 机 )。 
2.4 ERP 信号 采集 

本 研究 采用 NeuroScan 公司 的 64 导 放 大 器 采 
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集 EEG 信和 号。 采集 时 采用 左 侧 乳 突 作 为 参考 电极 。 
水 平 眼 电 分 别 置 于 双眼 外 眼 瞪 处 ,垂直 眼 电 分 别 置 
于 左 眼 上 下 2.5 cm 处 。 全 头 电 阻 始 终 保 持 在 5 KQ 
以 下 。EEG 信号 的 采集 采用 直流 电 (DC) 模 式 , 分 辨 
率 为 1000 Hz。 
2.55 数据 预 处 理 

脑 电 信号 的 离线 处 理 采用 Curry 7.0.8 软件 -EEG 
信号 通过 双 侧 乳 突 进行 转 参考 ,进行 0~30 Hz 的 滤 
波 , 并 对 垂直 眼 电 与 质量 不 佳 的 信号 进行 校正 或 删 
除 。ERP 成 分 信息 通过 县 加 被 试 分 别 在 两 种 条 件 下 
的 EEG 信号 得 出 : EEG 信号 以 每 次 刺激 前 200 ms 
至 刺激 后 1000 ms (共计 1200 ms) #EATA ABI, HK 
用 刺激 前 200 ms 的 数据 作为 基线 对 ERP 波形 进行 
校正 。 在 具体 分 析 的 ERP 成 分 上 ,本 研究 根据 前 人 
文献 (Donaldson, Ait Oumeziane, Hélie, & Foti, 2016; 
Felmingham, Stewart, Kemp, & Carr, 2016) 并 结合 
研究 的 结果 提取 出 5 个 具有 含义 的 ERP 成 分 : P1 
(120~170 ms), P2 (210~260 ms), N2 (240~290 ms), 
P3 (320~370 ms) 和 LPP (450~600 ms), 在 每 个 ERP 
成 分 的 时 间 段 内 取 峰 值 作 为 此 成 分 的 数据 值 。 最 终 ， 
对 于 每 一 个 被 试 , 我 们 采集 有 64 个 电极 点 信号 ,每 
个 电极 点 包含 威胁 词 ， 中 性 词 两 种 条 件 ， 每 种 条 件 
含有 5 种 ERP 成 分 的 峰值 数据 ， 即 一 个 被 试 有 
64x2x5 = 640 个 数据 。 为 了 确定 这 5 种 成 分 的 选择 
是 否 具 有 代表 性 ,我 们 对 分 别 对 5 种 成 分 在 Fz, 
FCz, Cz, CPz 和 Pz 五 个 电极 点 上 的 ERP 波幅 进行 
2( 组 别 高 考试 焦虑 ， 低 考试 焦虑 ) x 2( 条 件 : 考试 焦 
ERD, 中 性 词 ) 的 重复 测量 方差 分 析 ， 从 而 判 
断 这 5 种 成 分 的 选取 是 否 能 有 效 区 分 高 、 低 考试 焦 
RF o 


图 1 图 中 的 DD 表示 原始 数据 集 , D1,D2,… 


“Di RANK D 分 成 的 k 个 相同 大 小 的 子 集 


在 神经 网 络 任务 中 ,我 们 一 般 会 对 数据 进行 归 
一 化 或 者 正则 化 处 理 , 这样 可 以 使 模型 尽快 的 收敛 ， 
由 于 这 些 数据 的 绝对 值 都 小 于 15, 我 们 直接 将 数 
据 除 以 15, 使 它们 的 取 值 在 (-1, 1) 之 间 。 
2.6 多 折 交 叉 验 证 

为 了 对 每 种 机 器 学 习 算 法 进行 更 为 客观 的 比 
较 , 我 们 采取 k 折 交 又 验证 的 方式 ， 即 : 将 样本 均 
Sli at AR k 份 , 保证 每 一 份 的 样本 个 数 相 
同 。 一 共 进 行 k 次 训练 ， 每 次 训练 选 其 中 k-1 份 作 
为 训练 集 ， 剩 下 一 份 作为 测试 集 ， 最 终 的 指标 为 k 
次 训练 之 后 得 到 的 模型 在 测试 集 上 指标 的 平均 值 
OLK 1)。 一 种 基于 经 验 的 k 值 确定 方式 为 k~log (n) 
(Jung, 2018), n 为 样本 量 的 大 小 。 这 里 log (n) = log 
(82) ~4.4， 因 此 我 们 向 上 取 整 取 k= 5, 使 用 5 折 交 
又 验证 。 


3 IRIA (Convolutional neural 
network, CNN) 


31 ARE 

卷 积 操作 是 卷 积 神经 网 络 的 核心 操作 , 通过 它 
模型 得 以 提取 数据 的 不 同 特征 , 模型 也 是 通过 这 一 
步 在 数据 中 学 习 到 了 卷 积 核 的 参数 。 卷 积 的 操作 如 
图 2， 具 体 公 式 为 : 


C,- 
L k 
8y (Za) = >» Chip Zia 
k=0 


这 里 gy RMA xcCi > RMP 的 一 个 映射 ， MN; 
分 别 表示 第 i 层 网 络 中 输出 的 数据 矩阵 的 长 、 宽 、 
通道 数 。C。a 表示 对 图 片 a 使 用 卷 积 核 g HET ER, 
zi 表示 第 站 层 网 络 输出 数据 矩 阵 的 第 j 个 通道 。 
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使 用 2x2 的 卷 积 核 

以 步 长 为 1 进行 卷 积 
图 2” 卷 积 操作 的 计算 展示 
TE: 这 里 的 卷 积 是 不 进行 补 全 的 卷 积 ， 即 卷 积 运算 之 后 数据 矩 
阵 会 相应 变 小 ， 同 时 也 有 一 种 补 全 的 卷 积 操作 ， 即 在 原 数据 矩 
阵 周 围 添 0, 使 得 卷 积 之 后 得 到 的 数据 矩阵 大 小 不 变 。 


卷 积 操作 是 通过 卷 积 核 (红色 和 矩阵 ) 在 数据 矩阵 
蓝 色 和 矩阵) 上 进行 滑动 , 将 对 应 的 元 素 进 行 相 乘 相 
加 得 到 的 新 元 素 作 为 输出 矩阵 的 对 应 元 素 。 这 里 输 
出 数据 矩阵 的 长 和 宽 皆 为 : 4-2+1 = 3。 黄色 和 矩阵 的 
第 一 个 元 素 是 由 1x1+2x0+5x0+6x2 = 13 得 到 , 由 
于 我 们 的 步 长 是 1, 那么 将 红色 和 矩阵 向 右 滑 动 一 格 ， 
黄色 矩阵 的 第 二 个 元 素 由 2x1+0x3+6x0+1x2 = 4 得 
到 ， 其 他 元 素 以 此 类 推 。 使 用 多 个 卷 积 核 就 可 以 得 
到 多 个 不 同 的 输出 ， 以 此 得 到 输入 数据 的 多 个 不 同 
特征 ， 卷 积 核 中 的 元 素 是 所 要 训练 的 参数 ， 可 以 通 
过 反 向 传播 的 方式 进行 训练 (LeCun & Bengio, 
1995)。 
3.2 WHE 

池 化 是 卷 积 神经 网 络 中 常用 的 一 种 操作 ， 它 通 
过 降低 矩阵 长 和 宽 的 大 小 ,降低 了 数据 矩阵 的 分 辩 
率 , 但 是 也 进一步 压缩 并 提取 了 原 数 据 的 特征 ， 并 
且 减 少 了 网 络 计算 的 复杂 度 。 图 3 是 一 个 最 大 池 化 


使 用 2x2 的 卷 积 核 以 步 
长 为 2 进行 最 大 池 化 


图 3 最 大 池 化 的 计算 展示 

TE: 图 中 表示 的 是 一 个 4x4 的 矩阵 上 使 用 一 个 2x2 的 窗口 以 步 
长 为 2 进行 最 大 池 化 ,其 原理 就 是 取出 每 个 2x2 窗口 中 的 的 最 
大 元 素 作 为 输出 矩阵 中 对 应 元 素 的 值 。 


64x25 64x2x16 22x2x16 22x2x32 
| | | l 
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操作 的 直观 展示 ,不 难看 出 ， UR REE E P a 
分 数据 发 生 一 些 轻微 变化 ,最 大 池 化 还 是 能 输出 一 
样 的 结果 ,这 也 是 模型 对 于 数据 的 偏 移 和 旋转 有 和 较 
好 的 鲁 棒 性 的 原因 。 

3.3 MRH 

本 研究 使 用 的 卷 积 神经 网 络 架 构 见 图 4。 本 文 
中 使 用 的 CNN 的 输入 数据 维度 是 64x2x5, 其 中 64 
代表 64 个 不 同位 置 的 电极 点 ,2 代表 任务 条 件 ( 即 威 
胁 词 和 中 性 词 下 不 同 的 脑 电信 息 ), 5 代表 5 种 ERP 
成 分 ( 即 P1, P2, N2, P3 和 LPP 成 分 )。 将 原始 数据 
输入 到 卷 积 层 Conv] 做 卷 积 计算 ， 即 用 一 个 较 小 的 
卷 积 核 (也 叫 卷 积 和 矩阵) 在 数据 矩阵 上 根据 给 定 的 步 
长 (这 里 步 长 为 1) 进 行 滑动 ,将 对 应 位 置 的 元 素 进 
行 相 乘 求 和 。 在 如 图 中 输入 数据 矩阵 为 64x2x5 的 
情况 下 , 用 16 个 5x5 的 卷 积 核 来 进行 卷 积 操 作 ， 每 
一 个 卷 积 核 都 进行 卷 积 操作 就 得 到 16 个 64x2 WAE 
阵 (这 里 我 们 使 用 补 全 的 卷 积 方式 ， 于 是 数据 矩阵 
的 大 小 并 不 发 生 改 变 ),， 这 16 个 和 矩阵 分 别 代 表 16 种 
原 数 据 的 不 同 特征 ,在 深度 学 习 中 我 们 称 为 通道 
数 。 可 以 看 出 卷 积 是 一 种 局 部 操作 ,通过 一 定 大 小 
的 卷 积 核 作 用 于 局 部 数据 区 域 来 提取 局 部 信息 ， 这 
里 卷 积 核 的 大 小 是 事先 给 定 的 , 里 面 的 参数 由 模型 
学 习 而 来 ,这 些 特性 使 得 CNN 的 参数 可 以 共享 ， 
减少 了 参数 个 数 ， 并 且 在 数据 发 生平 移 变 换 的 时 候 ， 
模型 仍 能 捕捉 到 相似 的 特征 。 为 了 满足 不 同 任务 的 
和 需要， 近年 来 , 许多 不 同 的 卷 积 核 如 空洞 卷 积 也 被 
提出 (Yu & Koltun, 2015)。 

卷 积 层 一 般 会 跟着 一 个 下 采样 操作 ， 又 叫 池 化 
层 ， 即 通过 一 个 小 矩阵 在 数据 矩阵 上 滑动 ， 只 提取 
小 矩阵 中 的 最 大 数据 (最 大 池 化 ) 或 平均 数据 (平均 
池 化 )， 从 一 个 较 大 数据 矩阵 压缩 到 一 个 较 小 的 抢 
阵 用 作 下 一 层 的 输入 ， 这 一 层 没 有 参数 需要 学 习 ， 
通过 池 化 运算 可 以 减少 分 辩 率 ,降低 数据 对 嗓音 的 
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图 4 本 研究 使 用 的 卷 积 神经 网 络 架构 图 
TE: 每 一 层 的 具体 参数 见 表 1。 横 线 上 的 数据 表示 这 一 层 的 输入 数据 的 维度 ,也 即 上 一 层 输出 数据 的 维度 。Conv 代表 
卷 积 操作 , Pool 代表 池 化 操作 , relu 代表 在 卷 积 操作 之 后 的 非 线 性 激活 方法 。 
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敏感 程度 。 在 这 里 Pooll 层 做 的 就 是 池 化 操作 , 通 
过 一 个 4x1 的 矩阵 在 上 一 卷 积 层 的 输出 矩阵 中 以 步 
长 为 3 滑动 ,使 该 输出 矩阵 变 为 22x2x16 的 大 小 (22 
= [65/4]+1, [] 表 示 向 下 取 整 )。 

每 次 池 化 之 后 我 们 都 会 对 输出 的 数据 矩阵 做 
非 线 性 激活 ， 这 一 手段 使 得 模型 能 够 拟 合 任意 的 数 
据 流 形 ， 常用 的 非 线 性 激活 函数 是 relu 函数 。 即 : 

relu(x)=max(0,x) 
EIR Ze SK ie PE Te RE — SE A A BS HR PKI 
数 , 并 且 具 有 生物 学 意义 ， 这 种 非 线性 的 激活 函数 
使 得 卷 积 神经 网 络 可 以 逼近 任意 数据 分 布 ， 使 得 网 
络 有 了 非常 强大 的 拟 合 能 力 ， 同 时 也 有 防止 梯度 消 
失 的 作用 (Nair & Hinton, 2010)。 

在 后 面 的 几 层 中 我 们 继续 做 了 卷 积 和 池 化 的 
操作 ， 使 得 数据 矩阵 的 长 和 宽 越 来 越 小 ， 而 通道 数 
越 来 越 多 ， 即 学 习 得 到 的 特征 数 越 来 越 多 ， 这 就 是 
卷 积 神经 网 络 的 特征 提取 的 过 程 。 

传统 的 CNN 在 倒数 几 层 架构 中 会 将 数据 矩阵 
展 平 成 一 个 向 量 ， 再 加 入 几 层 全 连接 网 络 ， 也 就 是 
FC 层 ， 最 后 一 层 再 用 softmax 分 类 器 进行 输出 。 而 
最 近 的 研究 指出 全 连接 网 络 会 非常 容易 导致 过 拟 
合 ， 取 消 中 间 的 全 连接 层 ， 而 全 用 卷 积 层 代 奉 ， 并 
且 加 入 平均 池 化 也 即 Pool3， 可 以 大 大 提高 模型 的 
泛 化 性 Lin，Chen, & Yan, 2013)， 因 此 这 里 我 们 采 
用 的 也 是 这 种 架构 。 

最 后 在 经 过 FC 层 之 后 能 得 到 一 个 预测 的 类 别 
即 被 试 的 考试 焦虑 或 者 非 考 试 焦虑 ,将 预测 的 结 
与 已 知 的 实际 类 别 进行 比较 并 计算 两 者 之 间 的 误 
差 , 使 用 优化 算法 Adam 来 优化 模型 中 每 一 层 的 参 
数 从 而 减少 误差 ,使 预测 的 正确 率 不 断 上 升 ,， 本 文 
所 使 用 的 卷 积 神经 网 络 在 交叉 验证 下 的 正确 


率 达 到 了 86.6%。 本 文中 的 卷 积 神经 网 络 的 代码 框 
架 是 TensorFlow, 在 python 上 进行 了 实现 ,并 使 用 
T GPU 加 速 , 显卡 配置 是 2 块 Quadro P500, 

为 了 便于 说 明 每 一 层 的 结构 , 我们 将 卷 积 和 池 
化 分 为 两 层 来 介绍 ， 这 里 我 们 建立 了 一 个 7 层 的 卷 
积 神经 网 络 ( 表 1), 通过 卷 积 操作 来 提取 特征 ， 通 
过 池 化 来 压缩 数据 的 分 辨 率 ,最 后 采用 平均 池 化 提 
取 全 局 特征 ,这 一 操作 可 以 增加 模型 的 泛 化 能 


4 其 他 机 带 学 习 方 法 


本 文 还 使 用 了 其 他 机 需 学 习 的 分 类 方法 : 逻辑 
回归 (Logistic Regression), K 近邻 (KNN), 支持 向 量 
机 (SVM)， 随机 森林 (Random Forest), 人工 神经 网 
络 (ANN), 循环 神经 网 络 (RNN)， 并 将 分 类 结果 与 
卷 积 神经 网 络 进行 比较 ( 表 2)。 其 中 逻辑 回归 是 在 
正 负 两 类 样本 找到 一 个 线性 分 类 边界 来 划分 两 类 
样本 的 算法 ; K 近邻 则 是 通过 计算 新 样本 与 训练 集 
中 样本 的 “距离 ?来 进行 新 样本 的 划分 ,， 找 出 训练 集 
中 离 新 样本 “距离 ?最近 的 K 个 点 , K 个 点 中 正 ( 负 ) 
类 样本 更 多 ,， 则 新 样本 就 被 预测 为 正 ( 负 ) 类 样本 ， 
这 里 我 们 使 用 欧式 距离 ; 支持 向 量 机 通过 寻找 离 分 
类 边界 最 近 的 训练 样本 点 来 找到 划分 超 平面 , 这些 
样本 点 被 称 为 支持 向 量 ; 随机 森林 是 多 棵 决策 树 的 
集成 , 通过 可 放 回 采样 ， 随 机 选取 样本 、 特 征 来 构 
造 多 棵 决策 树 , 根据 每 个 树 的 分 类 结果 来 投票 共同 
决定 新 样本 的 分 类 结果 ; ANN 是 最 普通 神经 网 络 ， 
多 层 的 神经 网 络 通过 多 次 特征 的 线性 组 合 与 非 线 
性 函数 的 激活 来 得 到 强大 的 学 习 能 力 ; RNN 是 
ANN 的 一 种 推广 , 它 使 得 每 一 层 的 神经 元 之 间 可 
以 互相 连接 :从 而 增加 了 信息 的 流动 性 ,往往 应 用 
在 自然 语言 处 理 当 中 。 


表 1 卷 积 神经 网 络 架构 


导数 层 类 型 卷 积 核 (神经 元 ) 个 数 卷 积 核 大 小 步 长 滑动 窗口 大 小 
1 卷 积 16 5x1 [1,1 / 
2 最 大 池 化 / / [3, 1] [4, 1 
3 卷 积 32 3x1 [1,1 / 
4 最 大 池 化 / / [4, 2] [3, 2 
5 卷 积 64 3x1 {1,1 / 
6 平均 池 化 / / [1, 1] [2, 1 
7 全 连接 2 / / / 
注 : 通过 三 次 卷 积 操作 提取 了 数据 的 特征 ,将 数据 矩阵 的 大 小 进行 压缩 , 但 是 数据 的 深度 加 深 ,每 次 池 化 操作 之 后 都 使 用 了 relu K 


数 对 数据 矩阵 进行 逐 元 素 激 活 ， 最 后 加 上 一 个 全 连接 层 将 每 


个 样本 进行 分 类 。 
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5 结果 
5.1 ERPs 结果 

情绪 Stroop 的 ERP 结果 见 图 5, 方差 分 析 结 果 
表明 P1, P2, N2, P3 和 LPP 这 5 种 ERP 成 分 对 高 、 
低 考 试 焦虑 者 具有 鉴别 能 力 ， 即 在 Fz, FCz, Cz, 
CPz 和 Pz 点 上 均 有 显著 结果 。 具 体 表现 为 (以 Cz 
点 结果 为 例 ), 在 5 种 成 分 上 , 条 件 主 效应 在 P2, N2, 
和 P3 成 分 上 显著 (P2: F(1, 80) = 9.25, p = 0.003, n? = 
0.10; N2: F(1, 80) = 19.51, p < 0.001, n? = 0.20; P3: 
F(1, 80) = 27.86, p < 0.001, n? = 0.26), 在 Pl 和 LPP 
成 分 上 不 显著 (Fs (1, 80) < 1.06, ps > 0.307), 组 别 
主 效应 均 不 显著 (Fs (1, 80) < 1.52, ps > 0.221), 组 
别 与 条 件 交 互 效 应 均 显著 (P1: F(1, 80) = 11.68, p < 
0.001, n? = 0.13; P2: F(1, 80) = 14.10, p < 0.001, n? = 
0.15; N2: F(1, 80) = 28.55, p < 0.001, n? = 0.26; P3: 
F(1, 80) = 22.41, p < 0.001, n? = 0.22; LPP: F(1, 80) = 
16.92, p < 0.001, n? = 0.18); 进一步 简单 分 析 表 明 ， 
高 考试 焦虑 组 在 考试 相关 威胁 词 条 件 下 的 ERP 波 
幅 显著 强 于 中 性 词 条 件 下 (P1: FC, 80) = 16.19, p < 
0.001, nņ? = 0.17; P2: F(1, 80) = 37.88, p < 0.001,m2= 
0.32; N2: F(1, 80) = 78.12, p < 0.001, m2 = 0.49; P3: 
F(1, 80) = 82.18, p < 0.001, n? = 0.51; LPP: F(1, 80) = 
19.55, p < 0.001, n? = 0.20), 而 低 考 试 焦虑 组 在 两 
种 词汇 条 件 下 的 ERP 波 幅 没 有 显著 差异 (P1, P2, N2, 
P3: Fs (1, 80) < 2.06, ps > 0.155; LPP: F(1, 80) = 
4.02, p = 0.048, n? = 0.05, 边缘 显著 )。 
5.2 ”机 器 学 习 结果 

不 同 机 融 学 习 算 法 比较 的 结果 见 表 2。 由 于 这 
一 批 数据 正 反 两 类 的 数目 并 不 均衡 ， 这 里 我 们 使 用 


低 考试 焦虑 * 中 性 词 


低 考试 焦虑 * 考 试 相关 威胁 词 


在 测试 集 上 的 准确 率 和 Fl-score 来 评价 模型 的 优 劣 ， 
Fl-score 是 样本 类 别 不 均衡 下 一 种 衡量 模型 好 坏 的 
评价 指标 ， 它 是 基于 碍 准 率 与 查 全 率 的 调和 平均 来 
定义 的 , 在 这 一 实验 中 ,高 考试 焦虑 人 群 的 数量 远 
多 于 低 考 试 焦虑 人 群 ， 因 此 在 高 考试 焦虑 人 群 上 的 
准确 性 可 能 会 掩盖 低 考试 焦 卡 的 部 分 ， 相对 于 单一 
的 准确 性 而 言 Fl-score 更 加 全 面 的 衡量 了 模型 在 
高 、 低 考试 焦虑 这 两 类 人 群 上 的 准确 性 。 通 过 对 不 
同 模型 间 的 各 类 重要 指标 进行 比较 ( 表 2), 我 们 发 
现 CNN 在 这 一 分 类 任务 上 的 各 个 重要 指标 都 显著 
高 于 其 他 算法 。 例 如 ， 宿 云 、 胡 斌 、 徐 立新 、 张 晓 
炜 和 陈 婧 (2015) 在 研究 中 提 到 的 用 随机 和 森林 对 
EGG 信号 进行 分 类 的 方法 , 虽然 随机 森林 构建 更 
快 , 需要 调整 的 参数 也 更 少 , 但 是 它 在 某 些 噪音 较 
大 的 分 类 问题 上 容易 过 拟 合 ， 且 偏向 于 划分 取 值 较 
多 的 特征 ， 因 此 在 当前 数据 上 表现 不 佳 , 同时 也 有 
人 研究 指出 ,神经 网 络 往 往 比 随机 森林 得 到 的 结果 更 
优 一 些 (Strier & Shechter, 2016)。 因 此 我 们 认为 , 在 
对 于 脑 电 信号 的 处 理 方面 ， 卷 积 神经 网 络 确实 有 独 
特 的 优势 。 


表 2 不 同 机 器 学 习 模 型 的 结果 对 比 


机 器 学 习 模 型 准确 率 查 准 率 AEX Fl-score 
卷 积 神经 网 络 (CNN) 86.5% 84.0% 100% 0.911 


逻辑 回归 (Logistic Regression) 80.3% 83.6% 91.4% 0.868 
K 近邻 (KNN) 71.8% 71.3% 100.0% 0.817 


支持 向 量 机 (SVM) 79.0% 78.6% 96.4% 0.865 
随机 森林 (Random Forest) 73.1% 78.7% 84.2% 0.814 
人 工 神经 网 络 (ANN) 82.7% 84.6% 92.9% 0.882 
循环 神经 网 络 (RNN) 79.2% 77.0% 100% 0.870 


Ss 高 考试 焦虑 * 中 性 词 


高 考试 焦虑 * 考 试 相 关 威胁 词 


图 5 情绪 Stroop 任务 的 ERP 波形 图 
注 : 情绪 Stroop 任务 中 高 、 低 考试 焦虑 在 两 种 条 件 ( 中 性 词 和 考试 相关 威胁 词 ) 下 的 ERP 总 平均 波形 图 (以 Fz, FCz, Cz, CPz 和 Pz 电 


极点 为 例 )。 
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6 讨论 


本 研究 提出 了 一 种 用 于 考试 焦虑 程度 的 诊断 
方法 。 该 方法 使 用 ERPs 技术 采集 并 分 析 高 、 低 考 
试 焦虑 者 在 情绪 Stroop 中 对 考试 相关 威胁 词 与 中 
性 词 下 的 ERP 成 分 ,采用 机 需 学 习 ( 以 CNN 算法 为 
主 ) 建 立 了 一 个 对 被 试 焦虑 与 否 的 分 类 模型 ， 并 且 
通过 一 些 量化 的 指标 说 明 CNN 在 这 一 分 类 任务 上 
的 表现 明显 好 于 其 它 5 种 算法 。 

首先 , 情绪 Stroop 范式 结合 ERPs 技术 确实 可 
以 作为 一 个 有 效 判 断 考试 焦虑 程度 的 诊断 任务 。 具 
体 表 现 为 以 下 三 点 : 

() 范 式 对 考试 焦虑 程度 评估 的 可 靠 性 与 有 效 
性 。 通 过 比较 不 同 算法 在 两 个 指标 上 的 得 分 ( 见 表 
2) 可 以 得 出 ， 采 用 各 模型 对 被 试 的 ERP 数据 进行 计 
算 均 可 以 得 到 较 高 的 准确 率 和 F1-score， 准 确 率 高 
表示 模型 对 高 、 低 考试 焦虑 两 类 人 和 群 总 的 分 类 能 力 
强 , Fl-score 高 代表 模型 对 于 识别 高 . 低 考试 焦虑 人 
的 能 力 都 强 并 且 不 会 因为 两 类 样本 的 数量 不 均匀 
使 模型 产生 偏差 。 前 人 研究 中 表明 当 准 确 率 大 于 
75%, Fl-score 大 于 0.8, 模型 就 有 良好 的 性 能 
(Demšar, 2006)。 本 研究 中 所 采用 的 机 器 学 习 算 法 的 
结果 基本 都 能 满足 这 一 条 件 ， 这 表明 对 个 体 应 用 情 
绪 Stroop 范式 所 采集 到 的 ERP 数据 对 个 体 考试 焦 
虑 程度 的 判断 具有 稳定 性 ,因此 , 证 明 此 任务 具有 
良好 的 效 度 。 

(2) 机 器 学 习 特 征 选 取 的 有 效 性 和 高 度 客 观 性 。 


本 研究 在 机 器 学 习 的 特征 选取 中 具有 重要 心理 学 
意义 的 特征 是 任务 条 件 ( 即 情 绪 Stroop 任务 中 的 考 
试 相关 威胁 条 件 与 中 性 条 件 ) 和 ERP 成 分 ( 即 P1, P2, 
N2, P3 和 LPP 成 分 )， 而 通过 对 脑 电 结果 的 方差 分 
析 可 以 得 出 这 两 种 重要 特征 的 选取 兼 具有 效 性 和 
客观 性 。 首 先 , 方差 分 析 的 结果 表明 这 两 种 特征 可 
以 有 效 区 分 高 、 低 考试 焦虑 者 。 方 差 结 果 表 明 低 考 
试 焦虑 者 在 情绪 Stroop 任务 中 的 两 种 条 件 下 的 
ERP 波 幅 没 有 显著 差异 ， 而 高 考试 焦虑 者 的 ERP 波 
幅 有 显著 差异 , 并 体现 在 各 个 ERP 成 分 上 。 这 说 明 
高 考试 焦虑 者 会 因为 考试 相关 威胁 词 的 出 现 而 受 
到 干扰 ， 说 明 结 合 这 两 类 特征 可 以 有 效 反映 高 考试 
焦虑 者 认 知 中 视 考试 相关 威胁 词 为 威胁 的 认 知 模 
式 (Gootjes, Coppens, Zwaan, Franken, & van Strien, 
2011). Five, 在 这 5 种 ERP 成 分 各 自 代 表 了 不 同 
的 心理 学 意义 并 且 ERP 波幅 可 以 量化 ,从 而 达到 
诊断 的 客观 性 与 准确 性 。 具 体 而 言 , P1-P2-N2 成 分 


反映 的 是 个 体 对 刺激 自动 化 的 注意 偏向 (Berggren 
& Derakshan, 2013; Derakshan, Smyth, & Eysenck, 
2009), P3 成 分 在 此 类 任务 中 反映 的 主要 是 在 个 体 
对 信息 进一步 的 精细 加 工 (Jo，Schmidt，Inacker, 
Markowiak, & Hinterberger, 2016; Peng, Cai, & Zhou, 
2015), LPP 成 分 反映 的 则 是 个 体 对 刺激 的 情绪 性 自 
动 反 应 (Cosme & Wiens, 2015; Gootjes et al., 2011). 
本 研究 的 ERP 结果 说 明 当 考试 相关 威胁 信息 出 现 
时 ,高 考试 焦虑 者 能 够 迅速 注意 到 并 自动 化 加 工 这 
类 信息 (P1-P2-N2 成 分 ), 之 后 高 考试 焦虑 者 对 这 类 
信息 的 干扰 抑制 失败 ， 从 而 对 此 类 信息 进行 进一步 
精细 加 工 (P3 成 分 ), 这 种 对 威胁 信息 的 加 工 随后 激 
发 了 相应 的 负 性 情绪 (LPP 成 分 )， 因 此 本 研究 中 的 
ERP 成 分 可 以 有 效 反映 高 考试 焦虑 者 对 考试 信息 
的 不 合理 认 知 (Chen & Zhou, 2010)。 最 后 ， 由 于 高 
考试 焦虑 者 对 考试 相关 威胁 的 反应 包含 高 度 自动 
化 的 反应 ， 他 们 在 进行 任务 的 时 候 往往 很 难 意识 到 
自己 对 不 同类 型 词汇 的 反应 ， 无 法 猜测 任务 目的 
(Yiend，2010)， 因 此 在 使 用 此 模型 进行 考试 焦虑 得 
查 时 ， 可 以 有 效 避 免 由 于 猜测 到 任务 目的 而 有 意识 
地 进行 某 种 倾向 的 回答 (例如 掩盖 焦虑 程度 或 者 夸 
大 焦虑 程度 )， 达到 诊断 的 客观 性 与 准确 性 。 

(3) 情 绪 Stroop 范式 结合 ERPs 技术 评估 手段 的 
可 操作 性 ,完成 一 次 情绪 Stroop 任务 只 需要 5 分 钟 ， 
日 实验 范式 规则 简单 易 届 , 具有 高 度 有 效 性 与 可 靠 
性 (van Bockstaele et al., 2014; Verhaak et al., 2004), 
因此 能 够 很 好 地 应 用 到 实际 诊断 。 

其 次 , 不 同 算法 的 比较 可 以 得 出 我 们 建立 的 卷 
积 神经 网 络 模型 具有 良好 的 区 别 高 、 低 考试 焦虑 者 
的 能 力 。 具 体 表现 为 以 下 三 点 : 

(1) 高 准确 率 。 相 比 于 其 他 算法 , CNN 的 算法 具 
有 最 高 的 准确 率 (86.5%) 和 Fl-score (0.911)。 因 为 
CNN 模型 拥有 对 数据 的 平移 不 变性 ， 并 且 能 够 捕 
提 数 据 的 局 部 特性 和 提取 更 高 级 的 特征 (Boureau et 
al., 2010)， 因 此 使 得 卷 积 神经 网 络 相 对 于 其 他 模型 
而 言 ， 对 脑 电 数据 的 分 析 具 有 更 高 的 适用 性 ， 因 此 
有 比较 明显 的 提升 。 因 此 , 本 研究 建立 的 CNN 诊 
断 模型 具有 高 度 准 确 性 ， 可 靠 性 和 普 适 性 ,同时 由 
于 Fl-score 很 高 ， 这 一 模型 在 识别 高 、 低 考试 焦虑 
上 都 有 很 高 的 准确 度 。 

(CI) 诊 断 精 确 性 。 在 应 用 CNN 模型 对 考试 焦虑 
进行 诊断 时 , 不 仅 可 以 对 个 体 是 否 是 考试 焦虑 者 进 
行 诊断 ,还 可 以 分 析出 其 考试 焦虑 的 程度 。 在 操作 
层面 上 ， 卷 积 神经 网 络 最 后 一 层 输出 的 是 直接 的 分 


1124 心 理 


学 R 


第 51 卷 


类 结果 ,对 于 一 个 新 的 被 试 ， 只 要 输入 数据 ， 就 可 
以 判定 他 是 否 是 考试 焦虑 ， 而 倒数 第 二 层 输 出 的 结 
果 是 该 被 试 是 高 考试 焦虑 或 低 考 试 焦虑 的 概率 。 这 
个 概率 可 以 反映 被 试 个 体 的 考试 焦虑 程度 ， 即 属于 
高 考试 焦虑 这 一 类 的 概率 越 大 , 被 试 的 考试 焦虑 程 
度 越 大 -因此 , 通过 对 高 、 低 考试 焦虑 者 在 情绪 Stroop 
中 的 ERP 脑 电信 号 进行 机 顺 学 习 的 结果 可 以 有 效 
对 个 体 的 考试 焦虑 程度 进行 客观 诊断 。 

(3) 可 操作 性 。 虽 然 对 比 于 传统 机 器 学 习 方 法 ， 
卷 积 神经 网 络 的 模型 搭建 需要 仔细 的 调 参 ， 花 费 更 
多 地 时 间 , 但 是 一 旦 模型 建立 ， 进 行 预测 就 会 非常 
快 , 特别 是 对 于 大 量 数 据 而 言 ， 深度 学 习 模 型 有 非 
常 大 的 优势 。 

本 研究 的 局 限 主要 在 于 两 点 : 首先 , 本 研究 中 
数据 量 不 高 ,深度 学 习 是 数据 驱动 的 模型 ， 即 深 度 
模型 强大 的 泛 化 能 力 来 自 于 庞大 的 数据 量 ， 由 于 我 
们 的 数据 量 有 限 ， 因 此 这 可 能 会 降低 模型 的 泛 化 能 
力 。 未 来 可 考虑 建立 大 数据 数据 库 ,并 使 用 数据 增 
强 等 一 系列 手段 提升 数据 量 , 模型 的 表现 可 能 有 更 
进一步 的 提升 ; 其 次 , 本 研究 提出 的 综合 诊断 方法 
需要 借助 脑 电 设备 ， 相 对 于 单纯 采用 问卷 进行 诊断 
还 是 限制 更 多 ,不 过 随 着 便携 脑 电 设备 的 不 断 发 展 , 
此 诊断 方法 会 变 得 越 加 便利 。 

在 本 研究 中 , 我们 试图 通过 卷 积 神经 网 络 来 对 
考试 焦虑 进行 更 加 客观 的 诊断 ,目标 是 达到 对 考试 
焦虑 的 及 早 诊断 考试 焦虑 程度 评估 。 从 机 器 学 习 的 
两 个 重要 指标 上 的 表现 来 看 ,各 类 模型 是 相当 有 效 
的 ,其 中 , CNN 模型 是 最 适用 于 ERP 数据 的 深度 学 
习 ， 对 考试 焦虑 的 诊断 及 程度 判断 具有 很 高 的 准确 
率 与 可 靠 性 。 
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Abstract 

Individuals with test anxiety always treat tests/examinations as a potential threat. This cognitive mode 
impairs these individuals’ cognition, attention and emotions. A traditional method classifying subjects either as 
high or low on test anxiety (i.e., HTA or LTA, respectively) relies on questionnaire data. Questionnaire data may 
be unstable due to the subjective nature of participants’ attitudes, implying a reduced classification accuracy. In 
search for higher levels of (data) stability and classification accuracy a new classification approach is proposed. 
This new approach overcomes subjective data’s negative impact on classification accuracy by relying on 
event-related potential (EPR) data (also referred to as ERPs), objective (multivariate, longitudinal) data which 
adequately capture participants’ reactions to relevant stimuli (over time). However, as ERP data may still be 
somewhat unstable due to individual differences between participants, (machine) learning algorithms are 
adopted as their ‘learning’ feature may increase both the stability of ERP data and classification accuracy. 

This study recruited 57 HTA participants and 25 LTA participants based on: (a) Test Anxiety Scale (TAS) 
scores, and (b) (two) specialists’ psychological diagnostic results on a single participant. Reliance on the 
emotional Stroop (ES) paradigm in combination with ERP technology enabled the assessment of participants’ 
cognitive mode related to test anxiety. In ES, the information on the ERP components P1, P2, N2, P3 and LPP 
ERP were selected as input for seven commonly used machine learning algorithms: Convolutional Neural 
Network (CNN), Logistic Regression (LR), K Nearest Neighbors (KNN), Support Vector Machine (SVM), 
Random Forest (RF), Artificial Neural Network (ANN), and Recurrent Neural Network (RNN). To compare the 
classification accuracy of these algorithms (using the complete sample of HTA and LTA subjects) important 
indexes (i.e., accuracy and Fl-score) were calculated and compared across these algorithms. 

The results showed that: (a) the ERPs data collected in ES allow effective differentiation between HTA and 
LTA (P1: F(1, 80) = 11.68, p < 0.001, n? = 0.13; P2: F(1, 80) = 14.10, p < 0.001, n? = 0.15; N2: F(1, 80) = 28.55, 
p < 0.001, ņ? = 0.26; P3: F(1, 80) = 22.41, p < 0.001, n? = 0.22; LPP: F(1, 80) = 16.92, p < 0.001, n? = 0.18); (b) 
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classification on the basis of ERP data using machine learning algorithms shows high accuracy and stability, that 
is the classification accuracy of all seven algorithms is found to be high as evidenced by an accuracy index of 
71.8% or higher (CNN: 86.5%, LR: 80.3%, KNN: 71.8%, SVM: 79.0%, RF: 73.1%, ANN: 82.7%, and RNN: 
79.2%) and an Fl-score of 0.814 or higher (CNN: 0.911, LR: 0.868, KNN: 0.817, SVM: 0.865, RF: 0.814, ANN: 
0.882, and RNN: 0.870); (c) CNN outperforms the other six common machine learning algorithms showing both 
the highest accuracy index and Fl-score. Moreover, as over and above this (relative) superiority CNN combines 
the (technical) property known as ‘shift invariance’ and robustness to noise, the algorithm may be considered 
ideal for effectively classifying test anxious individuals using ERP data. 

It is concluded that: (a) as manifested by its ‘discriminatory’ nature and stable classification performance 
(as evidenced by all machine learning algorithms’ favorable values for all important indices) reliance on the ES 
paradigm enables machine learning leading up to effective diagnosis of test anxiety; and (b) participants’ 
classification into HTA and LTA by relying on ERP data which are subsequently analyzed by means of the 
machine learning algorithm CNN is (most) effective (i.e., as benchmarked against six other commonly used 
machine learning algorithms). Consequently, using ES in combination with ERP technology and the CNN 
machine learning algorithm can be conceived as an ideal method for diagnosing test anxiety. 
Key words machine learning; test anxiety; emotional Stroop; ERPs 


